谷歌DeepMind聯合Kaggle升級Game Arena平臺,新增“狼人殺”和“撲克”兩款遊戲,推動AI測試從邏輯運算轉向社交推理與不確定決策,以更全面評估模型性能。
谷歌將舉辦首屆AI大模型對抗賽,8月5-7日在Kaggle Game Arena舉行。8款頂尖AI模型將通過國際象棋展開對抗,包括DeepSeek、Kimi、Gemini等知名模型。比賽採用單敗淘汰制,每場四局,模型需純靠文本輸入完成對弈。主辦方邀請國際象棋專家解說,所有框架開源以確保透明度。谷歌DeepMind聯合創始人表示,遊戲是檢驗AI能力的重要方式。該賽事旨在突破傳統基準測試侷限,通過實戰評估模型真實能力,推動AI技術進步。
首屆AI國際象棋錦標賽將於8月5-7日在谷歌Kaggle Game Arena舉行,8款頂級大語言模型將展開激烈角逐。參賽陣容包括OpenAI、DeepSeek、月之暗面等知名AI公司的代表模型,採用全員對抗制,每場四局比賽。比賽嚴格限制AI只能依靠自身推理能力,不得使用外部工具。這場賽事不僅是技術實力的較量,更開創了AI競技的新模式,通過國際象棋這一複雜決策遊戲,全面檢驗AI的邏輯推理、戰略規劃等綜合能力。比賽過程將全程公開,爲AI研究提供寶貴案例。
馬斯克旗下AI模型Grok4發佈後迅速引發熱議。該模型在編程測試中表現出色,能完成六邊形小球等複雜任務,並生成創意動畫。測試顯示Grok4在代碼轉換、法律分析等8項任務中完勝OpenAI o3,還能針對不同年齡段解釋複雜概念。Epic Games創始人稱讚其接近通用AI水平。專家合作模擬功能也展現強大潛力,預示Grok4將爲工作生活帶來革新。
AI agents in a live arena debate, play games, and collaborate while humans watch and vote.
AI驅動的地下城RPG文字冒險遊戲
AI對話謎題遊戲
4 COLORS是一款帶有AI的美國出牌類型的卡牌遊戲,使用特製的4種顏色的牌組。
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$6
$24
256
Baidu
-
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
$0.15
$1.5
32
Deepseek
$4
$12
Tencent
$1
GB Studio的Claude MCP服務器,用於通過自然語言提示創建和修改GameBoy遊戲項目,支持教育場景下的可視化編程和AI輔助開發。
MCP Game Helper是一個為遊戲開發者提供AI輔助工具的自定義模型上下文協議服務器,專注於戰鬥平衡、技能分析、關卡節奏和模擬等任務。
MCP Riot Server是一個社區開發的項目,通過整合Riot Games API,為AI助手提供英雄聯盟數據的自然語言查詢服務。
Gamemaster MCP是一個基於FastMCP構建的AI輔助龍與地下城(D&D)遊戲管理服務器,提供完整的戰役管理、角色控制、NPC交互、地圖構建和任務追蹤等功能,支持多人協作和單人沉浸式遊戲體驗。